Datenanalyse

Die Sichtweite bewegt sich von etwa 6 km auf bis zu 10 km. In seltenen Fällen liegt die Sichtweite allerdings auch bei unter 5 km. Aufgrund der Beschränkungen der API nimmt das Merkmal höchstens den Wert 10 an. Die Sichtweite folgt einer jährlichen Saisonalität. Wie im Notebook für die Wetterbedingung bereits dargestellt gibt es in den Sommermonaten wesentlich häufiger klares Wetter.

Die Saisonalität lässt sich auch an den Boxplots je Monat erkennen. Die Sichtweite ist im Durchschnitt gegen Mitte des Jahres sehr hoch und gegen Ende/Anfang des Jahres eher geringer.

Die Werte sind deutlich linksschief um den Mittelwert verteilt.

Korrelationsanalyse

Liniendiagramm (Verlauf)

Es lässt sich zunächst ein Zusammenhang zwischen der Sichtweite und dem Stromverbrauch erkennen. Die Sichtweite ist im Sommer besonders hoch, im Winter hingegen eher geringer und verläuft daher dem Stromverbrauch entgegengesetzt. Das lokale Maximum des Stromverbrauchs in der Mitte des Jahres lässt sich allerdings nicht durch das Merkmal erklären. Besonders deutlich wird dies beim Betrachten der gleitenden Durchschnitte.

Stromverbrauch nach Sichtweite (Scatterplot)

Im Scatterplot lässt sich zwar kein Zusammenhang erkennen, die Regressionsfunktionen deuten aber auch einen Zusammenhang beziehungsweise eine negative Korrelation der Merkmale hin. Dabei ist allerdings zu beachten, dass das Merkmal nach oben hin auf maximal 10 km begrenzt ist.

Wenn die eher seltenen Tage mit einer Sichtweite von weniger als 8 km entfernt werden, kann allerdings auch die Regressionsfunktion keinen Zusammenhang mehr ermitteln.

Stromverbrauch nach Sichtweite (Scatterplot)

Die Boxplots deuten ebenfalls auf eine leicht negative Korrelation hin. Allerdings sind die Boxplots erst ab einer Sichtweite von etwa 7 km aussagekräftig, da es vorher relativ viele Ausreißer beziehungsweise sehr wenig Daten gibt.

Stromverbrauch nach Sichtweite und Monat (Boxplot)

Regressionsanalyse

Durch die Regressionsanalyse wird geprüft, inwieweit sich der Verlauf des Stromverbrauchs anhand der verfügbaren exogenen Merkmale modellieren lässt. Es geht dabei noch nicht um die Erstellung eines Vorhersagemodells. Stattdessen wird die Regressionsanalyse eher mit Blick auf potenzielle Zusammenhänge, Korrelationen und Muster beziehungsweise generelle Verläufe durchgeführt. Aus diesem Grund bietet sich eine Funktion sechsten Grades an. Dafür wird mit den Daten von 2015 bis 2018 und den entsprechenden Merkmalen eine Regression sechsten Grades durchgeführt, welche dann mit den Daten für 2019 getestet wird. Wie bereits erwähnt, gibt es 2020 und 2021 Abweichungen vom ansonsten üblichen Verlauf. Daher werden nur die Daten bis einschließlich 2019 verwendet.

Regression mit Windgeschwindigkeit

Es lässt sich zwar bis hierhin vermuten, dass es einen Zusammenhang zwischen dem Stromverbrauch und der Sichtweite gibt, allerdings kann das Regressionsmodell keine Informationen aus den Daten ziehen. Das Modell ist ähnlich schlecht wie beispielsweise bei der Windgeschwindigkeit oder der Luftfeuchtigkeit. Es lässt sich nicht einmal die jährliche Saisonalität erfassen.

Regression mit Arbeitstag und Windgeschwindigkeit

Wie auch bei anderen, wenig aussagekräftigen Merkmalen zeigt sich, dass auch in der Verbindung mit dem Arbeitstag keine neuen Informationen vom Modell erkannt werden können. Die hier generalisierten Informationen sind vollständig auf den Arbeitstag zurückzuführen.

Regression mit Arbeitstagen, Temperatur, Tagesstunden und Sichtweite

Wir das Merkmal den übrigen, aussagekräftigen Merkmalen hinzugefügt, ergibt sich auch hier kein erkennbarer zusätzlicher Informationsgewinn.

Fazit

Die Sichtweite lässt zwar zunächst einen Zusammenhang mit dem Stromverbruach vermuten, allerdings scheint dieser Zusammenhang sehr schwach und zumindest teilweise in anderen Effekten begründet. Jedenfalls scheint das Merkmal bei einer Regression keinen zusätzlichen Informationsgehalt zu liefern und wird daher nicht weiter verwendet.